在安全性应用程序中,机器学习模型应在最坏情况下的分配变化下概括,也就是说,具有较小的强大风险。基于不变性的算法可以证明,当训练分布足够异质以识别强大风险时,可以利用对轮班的结构假设。但是,在实践中,这种可识别性条件很少满足 - 到目前为止,这种情况在理论文献中尚未得到充实。在本文中,我们旨在填补空白,并建议在仅部分可识别鲁棒的风险时研究更通用的环境。尤其是我们引入了最坏的稳健风险,作为一种鲁棒性的新度量,无论可识别性如何,它总是定义明确的。其最小值对应于算法独立的(种群)最小值的数量,该数量可在部分可识别性下测量最佳可实现的鲁棒性。虽然可以更广泛地定义这些概念,但在本文中,我们将其介绍并明确地得出了线性模型以实现介绍的具体性。首先,我们表明在部分可识别的情况下,现有的鲁棒性方法是次优的。然后,我们评估了这些方法和(经验性的)最差案例鲁棒风险在现实世界基因表达数据上的鲁棒风险,并找到类似的趋势:随着未看见环境的数据的增加,现有鲁棒性方法的测试误差越来越高,而对部分识别性的识别则可以更好地普遍性化。
主要关键词